#representación contrastiva

Políticas condicionadas por dirección para aprendizaje por refuerzo en línea

El método DCP mejora el aprendizaje por refuerzo en línea al condicionar las políticas por dirección, superando a Contrastive RL en manipulación y obstáculos.

2026-06-16 · 2 min